[ECCV 2022] 场景文字端到端识别中的全局到局部注意

Original 黄明鑫 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍ECCV 2022录用论文“GLASS: Global to Local Attention for Scene-Text Spotting”的主要工作。这篇文章针对场景文字端到端识别任务，提出了一个从全局到局部的注意力模块。这个模块结合了全局特征（从共享的主干网络中提取的特征）和局部特征（从原图中裁剪下来的图片，然后再送入一个识别的主干网络提取的特征）融合到一起再进行识别，极大提升了模型的性能。同时文章还提出了一个新的损失函数来提升模型对旋转文本识别的能力。在多个公开数据集上，该论文提出的模型都取得了很好的效果。论文提出的模型也可以用到现在有的框架上。

图1. 场景文字端到端识别方法总览。(a)两阶段检测识别。一个独立的文本检测器后面跟着一个独立的识别器。两者是单独训练的。(b) 端到端文字识别。检测与识别协同优化。(c)论文提出的模块同时结合了(a)和(b)的优势。特征图使用交错注意进行融合，提高了对缩放和旋转的鲁棒性，以及整体性能。

一、研究背景

场景文字端到端识别，即在自然场景图片中检测出文本实例并识别出文字的内容，近年来在性能上有了显著的提高。它现在通常用于许多真实的场景中，比如自动驾驶、文档分析和地理定位等。场景文字端到端识别挑战在于，有些单词可能跨越整个图像，而另一些单词，可能就只占据图像很小的一部分，例如，离得很远导致几乎看不到的交通标志。两者的尺度变成非常大，导致了模型性能不佳。论文为了解决文本尺度的变化大，以及文本旋转的问题，提出了一个GLASS模块，在极端尺度变化的情况下增强了模型的性能，并且还设计了一个周期的，针对旋转的损失函数，增强了模型对于任意旋转角度的文本的检测性能。

二、方法原理简述

图2. 网络整体框架图。

图片输入到主干网络提取特征，然后输入到检测器中，这个检测器是一个基于Rotated Mask RCNN的检测器，先用一个Rrotated RPN来生成一些旋转的一些Pproposal，然后提取RoI特征，然后对这些旋转的Proposal进行一个精调。得到一个精细的旋转框。然后再用这些旋转框进行Rotated RoIAlign提取RoI特征, 生成Mask。然后就到了识别部分。首先检测部分生成的旋转框从主干网络输出的特征中使用Rotated RoIAlign 提取识别部分的RoI特征这部分Global 的特征，然后再用检测部分生成的旋转框从输入的图片中把旋转文本Crop出来，再送入到一个Res34的主干网络中提取特征，这部分就是Local的特征。最后把这两个特征送入到Interleaved Feature Attention进行融合，然后再送入到识别器中。这里使用的识别器是ASTER。下图是图1中GALSS的详细结构。

图3. 全局到局部注意特征融合。

图2中的这个 Local特征是从图片裁剪得到的特征，分辨率高。全局特征是从Backbone采样的特征，其感受野比局部特征要大。首先，先把这两个特征在通道上分组，分成K组，然后再拼接起来。然后送入到这个Interleaved Attention中，通过卷积和Softmax得到一个热图，然后乘上原来的特征进行加权求和。总共得到K组这样的特征，然后再把这个特征加回到拼接的特征那里。得到最后的特征。就是送入识别的那个特征。

用于端到端监督训练的总损失函数为

的计算与Mask RCNN中一致，

的计算与ASTER一致，

的计算如下

计算角度损失时，使用了文章提的基于正弦函数的Loss来计算。

三、主要实验结果及可视化结果

下面是本文的一些实验结果

下面是一些可视化图

四、总结及讨论

本文对现有的场景文字端到端识别提出了两个扩展。首先是提出了一个GLASS模块，将全局和局部特征结合起来，实现端到端文本识别。另一个是为旋转文本检测提出了一个新的损失函数。在多个数据集上，都证明了本文提出方法的有效性。

参考文献

[1] Ronen R, Tsiper S, Anschel O, et al. GLASS: Global to Local Attention for Scene-Text Spotting[C]. ECCV 2022.

[2] Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]. ECCV 2020.

[3] Liu Y, Shen C, Jin L, et al. Abcnet v2: Adaptive bezier-curve network for real-time end-to-end text spotting[J]. TPAMI, 2021.

原文作者: Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, and R. Manmatha.

撰稿：黄明鑫

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫码关注，获取最新OCR资讯

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测

[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法

[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法

[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正

ECCV 2022 Oral | 理解艺术字：用于场景文字识别的角点引导Transformer

ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

您可能也对以下帖子感兴趣